机器翻译译后编辑 | A short guide to post-editing 书籍推介 1
A short guide to post-editing
书籍推介
中文译名:译后编辑指南
作者:Jean Nitzke, Silvia Hansen-Schirra
ISBN:978-3-96110-333-1
DOI:10.5281/zenodo.564689
出版社:Language Science Press
网址:https://langsci-press.org/catalog/book/319
译后编辑(Post-editing)已经成为专业译者的既定任务。原始的机器翻译结果可以帮助译后编辑者加快翻译过程,让客户享有更多利润和较低成本。然而,专业的译后编辑者需要掌握机器翻译和译后编辑的基本知识,来评估译后编辑任务并作出正确的决策。
本书是了解并学习译后编辑的入门指南,总共分为十章,我们将带着读者从零开始,一步步学习译后编辑,同时也将译后编辑相关的话题同步介绍给大家。
本系列推文将按本书的章节顺序,基于中文译本(由武汉科技大学2020级MTI研究生陈美欣同学翻译),对“译后编辑”进行较为完整的介绍:从译后编辑的定义、指南等基础知识出发,分别从基本工具、风险、流程及能力等方面进行全方位分析,从而带领各位读者由浅入深,学习并掌握译后编辑,助力翻译实践。
01
什么是译后编辑?
译后编辑(PE)“是由人工译者根据特定的指导方针和质量标准对原始的机器翻译结果进行校正”(奥布莱恩, 2011: 197-198)。
02
译后编辑为翻译研究带来新视角
从研究的角度来看,译后编辑“是人工译者和机器相遇的领域——也是机器翻译和翻译科学这两个学科相遇的领域”(库洛等, 2014: 35)。因此,译后编辑的跨学科研究也很有趣。
首先,我们想说明译后编辑基础理论研究的一些初步途径。由于认知和语用层面的结合,关联理论方法似乎是适合用于描述译后编辑现象的理论。译后编辑者是经过训练的专业人员,能够在目标语境中编辑机器翻译输出来弥合语言之间的交际鸿沟。这项任务是以源文本、预期接受者、目标文化和译后编辑纲要相关的充分决策为基础。
在认知层面,关联理论认为应考虑在有效且成功的交际下,用最少的努力编辑机器翻译结果。阿尔维斯等人(2016)从关联理论层面对译后编辑进行了讨论。
然而,这就意味着读者需要投入更多的认知努力,因为目标文本在语言和/或风格上并不完美。卡尔和舍费尔(2019)将关联理论与噪声信道模型相结合,从理论上探讨译后编辑。他们提出了一个“模型,其中[关联理论]通过增加关联原则建立的刺激、语境和诠释之间的因果关系的约束条件来补充‘噪声译者信道’。”(卡尔、舍费尔, 2019: 60)
03
机器翻译基本方法
不同的方法将翻译过程自动化。在此,我们将讨论基于规则的、统计和神经机器翻译的优缺点,以及他们在译后编辑工作流中的可用性。
3.1
基于规则的机器翻译(RBMT)
基于规则的方法是机器翻译发展的催化剂。通常,这些系统试图定义源语言的个体特征,以及这些特征转换为目标语言的方式。多年来制定了不同以规则为基础的方法来生成机器翻译:
直接机器翻译:这类机器翻译是专为一种语言对和一个翻译方向搭建的。从本质上而言,对源文本的单词进行形态分析,然后在字典中查找,这意味着所有形态学规则都在理想情况下得到了定义,因此字典只需包含单词的词干。在接下来的步骤中,源语言的单词被替换成目标语言的单词,且应用目标语言所需的所有形态变化。
基于转换规则的机器翻译:基于转换规则的方法构造源文本(通常是树结构)无歧义的句法表达等。接着,在包含双语迁移规则的语法的帮助下,为目标语言生成这一表达。此时可生成目标文本。理论上,这些系统可能运用在两个语言方向上,但在实践中,迁移规则通常不能在两个方向上应用。
基于中间语言的机器翻译:针对这种方法,需要创建所谓的中间语言。这种中间语言以抽象的形式表示意义,理论上可以通过自然语言或人工语言或独立于语言之外的表述来实现。
对于译后编辑,这种方法似乎特别适合翻译遵循受控语言的文本。受控语言由一组规则定义,理论上可以直接在基于规则的系统中实现。但是,这些方法的主要缺点是,开发系统需要花费大量精力,因为预期系统越完善、越全面,需要定义的规则就越多。如今,基于规则的方法已经过时,并且通常只能在混合系统或者非常老旧、已建成的系统中找到。
3.2
统计机器翻译(SMT)
几十年以来,统计机器翻译一直是最先进的技术。这种方法的基本思路是:通过计算源语言中最有可能等同于目标语言的单词/短语/句子,从平行训练语料库中生成翻译。统计翻译模型是基于语料库数据进行生成和训练的。单语语料库和多语语料库都用于捕捉相关语言的典型语言结构——单语语料库生成目标语言模型,多语语料库生成翻译模型。此外,统计机器翻译使用所谓的n-gram——按照概率分配的对齐单词(通常n≤7)的序列,该概率表示单词序列在训练语料库中出现的可能性。
另外,还可以在训练阶段提取额外的信息,例如相对句子长度模型。如果有对齐的平行语料库,则可以相对快速地实现统计机器翻译。在这种情况下,训练在这种情况下意味着对源文本进行分析。
译后编辑统计机器翻译文本的优势在于能较大程度地预测待纠正的错误。只要没有使用新的或扩展的训练语料库进行训练,统计机器翻译系统通常会产生同样的错误。统计机器翻译系统的代码是公开透明的,翻译概率的计算也很简单。对于给定的语言方向,可以识别出典型错误。
近期涉及统计机器翻译的开发试图将不同的方法——通常是基于规则或统计——结合到混合系统中,以便结合每种方法的优点。深度系统集成是建立一个结合两种方法优点的全新系统。而浅度系统集成是将两个或两个以上现有的系统结合为一个新系统。
3.3
神经机器翻译(NMT)
最新的机器翻译方法是使用神经网络,该方法同样可应用于平行训练语料库。神经机器翻译系统建立了大型神经网络进行翻译,而统计机器翻译系统是由许多子组件组成。神经机器翻译系统采用深度学习方法并自动学习训练数据。
在神经机器翻译中至少涉及三个基本层:输入层、输出层以及中间的隐藏层。输入层处理源文本,输出层创建目标文本。隐藏层即为处理步骤。该模型可以以更精细的方法工作,当系统包含更多隐藏层时,可以处理更加复杂的任务。
神经机器翻译中常见的两种方法:transformer模型和循环编码器-解码器模型。在编码阶段,源文本的含义被编码成一个固定长度的向量。transformer系统和循环系统在源文本的编码方式上有所不同。在解码阶段,目标片段逐字生成。产出时,神经网络机器翻译系统会考虑周围的单词作为语境。该系统的缺点在于处理长句存在困难。为克服这些问题,应用了所谓的对齐模型。这些模型通常都称作注意力模型。
关于译后编辑,神经机器翻译的一大优点在于,其机器翻译结果至少在流畅度方面要比其他系统架构好得多。但是,只有用足够的训练材料来训练该系统,我们才能得到更好的机器翻译结果。如果没有足够的训练材料,我们得到的质量并不佳。小语种和罕见语种组合往往会出现问题,因为它们缺乏代表性且资源贫乏。
此外,与所有数据驱动的机器翻译系统一样,结果的良好程度取决于训练数据的质量。因此,如果我们用质量较差的数据来训练系统,我们就会得到较差的结果。这同样也适用于特定领域的翻译。如果系统在特定领域没有经过良好的训练,结果同样会不好。总之,该系统更容易受到噪声数据的影响。
然而,最新的研发成果中将神经机器翻译和特定术语的训练相结合,这就解决了领域问题(例如米雄等, 2020)。
神经机器翻译系统的另一个优点在于,其拥有一个紧凑的系统,而非由多个组件组成。但是,相对于统计机器翻译,它需要更多的训练时间和更强的计算机处理能力。
以上是本书一至三章的主要内容,请继续关注该系列后续连载~
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑(MTPE)相关知识,追踪国内外机器翻译译后编辑教学与研究动态!
推文编辑:王晨谕
指导/审核:肖志清 王雪红
项目统筹:王晨谕
资讯推荐
▶ 技术与工具
▶ 国际语言服务动态
| 翻译公司篇 | “收购狂魔”Keywords Studios
| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau
▶ 专访
王巍巍:疫情背景下远程口译的挑战和应对
卢家辉、陈晨:口译员在远程口译中面临的主要问题
▶ 行业洞察
▶ 教育创新